haastattelu ulkona

Häiriöäänet ja päällekkäinen puhe: Manuaalinen litterointi pelastaa, kun äänite pettää

  • by Sanna

Teksteissä käytetään useampia puheentunnistukseen liittyviä termejä. Voit tarkistaa kunkin termin merkityksen tekstin lopussa olevista termilaatikoista.


Epäselvä äänite haastaa sekä ihmistä että konetta. Tässä tekstissä käymme läpi tilanteita, joissa käytännössä tarvitaan aina inhimillisiä kykyjä ja ihmisen työpanosta laadukkaan lopputuloksen takaamiseksi.

Huonot äänitteet

Jokainen litterointia tehnyt tietää, että hyvälaatuisestakin äänitteestä on toisinaan vaikea kuulla, mitä henkilö sanoo. Aina rauhallinen tilakaan ei takaa hyvää äänenlaatua: jokin menee nauhoituksessa pieleen tai verkkohaastatteluissa nettiyhteys on heikko ja aiheuttaa häiriötä ja katkoksia ääneen. Ihminen saa heti käsityksen nauhan laadusta, jolloin hän voi yrittää mekaanisesti parantaa äänenlaatua tai ymmärtää vähintäänkin lisätä äänenvoimakkuutta. Ihminen voi myös litterointimerkinnöillä merkata huonosti kuuluvat kohdat, kirjata ylös heikon kuuluvuuden syyt ja merkitä epävarmasti kuullut kohdat, jonka tutkija voi jälkikäteen tarkistaa aikamerkinnän perusteella. Puheentunnistusjärjestelmät ja tekoäly ovat melko huonoja reflektoimaan tekemistään.

Taustamelu

Yksi suurimmista haasteista puheentunnistusjärjestelmille on puheen tunnistaminen epäselvissä tai meluisissa olosuhteissa. Kahvilassa tehdyissä nauhoituksissa taustalla kuuluu muiden asiakkaiden puhetta, ja ulkotiloissa tallennetuissa haastatteluissa nauhalle tulevat myös ympäristön äänet. Ihmisellä on kyky erottaa ja tulkita haastateltavan puhetta, vaikka taustalla olisi häiriöitä tai puhuja puhuisi epäselvästi.

Jos haet vinkkejä onnistuneen nauhoitukseen tekemiseen, tutustu aiempaan blogikirjoitukseemme: Loistava äänite-laadukas litterointi: Näin onnistut haastattelun äänityksessä

Useampi puhuja

Monissa seminaari- ja keskustelutallenteissa puhujat puhuvat väistämättä toistensa päälle. Puheentunnistusjärjestelmä voi saavuttaa yli 80 %:n tarkkuustason (joissain tapauksissa yli 90 %), jos puhujia on enintään kaksi ja äänitteellä puhutaan hyvin selkeällä äänellä. Jos äänitteellä on puhujaryhmä, tarvitaan ihmisen korvaa ymmärtämään päällekkäistä puhetta. Mikäli ihmisenkään ei ole mahdollista saada puheesta selvää, litteroija merkitsee tämän näkyviin. Näin kuulematta jäänyt puhe tulee huomioiduksi, eikä se häviä litteraatiosta, ikään kuin sitä ei olisi koskaan ollutkaan.

Puhujien tunnistus

Puheentunnistusjärjestelmät tunnistavat puhujat hyvin vaihtelevasti, varsinkin kun puhujat puhuvat toistensa päälle. Tämä haastaa koneen lisäksi ihmistäkin. Sen sijaan ihminen onnistuu yleensä hyvin erottamaan ääneltään samankaltaisetkin keskustelijat, esimerkiksi kaksi heleä-äänistä naista. Tässä erottelussa on ehkä yllättäenkin teknologialla vielä paljon kirittävää.

Keskustelijoiden puheenvuorot eivät myöskään aina vuorottele loogisesti. Tällaista epäsäännöllistä rytmitystä puheentunnistusjärjestelmän on vaikea seurata. Se saattaa jääräpäisesti väittää kysyjän olevan jo vastaaja, vaikka haastattelija onkin vain täydentänyt edellistä kysymystään uudessa puheenvuorossa. Tämän jälkeen puheenvuorot saattavat heittää läpi koko litteraation.

Mikäli äänitteessä ilmenee ongelmia, ihminen pystyy toistaiseksi vaikuttamaan tilanteeseen paremmin kuin puheentunnistusjärjestelmä. Vähintäänkin hän voi merkitä ongelmakohdat litterointimerkinnöin, mikä auttaa litteraation lukijaa saamaan selkeän kuvan haastattelun sisällöstä ja tulkitsemaan tekstiä oikein.


Lue sarjan ensimmäinen osa
Miksi erityisesti suomen kielen litteroinnissa tarvitaan edelleen paljon manuaalista työtä.

Aiheeseen liittyviä termejä:


Manuaalinen litterointi: Äänitiedoston tai puheen manuaalista muuntamista tekstiksi. Ihminen kuuntelee äänitiedoston ja kirjoittaa sen sanat ylös.
Automaattinen litterointi: Prosessi, jossa tietokoneohjelma muuntaa automaattisesti äänitiedoston tekstiksi. Ihminen ei osallistu litteraation tuottamiseen, vaan litteraatio on tietokoneen tekemä.
Puheentunnistusteknologia: Tietotekniikan alue, joka mahdollistaa ihmisen puheen automaattisen tunnistamisen ja muuntamisen kirjoitetuksi tekstiksi tai toiminnoksi. Teknologia käyttää algoritmeja ja koneoppimismenetelmiä äänisignaalien analysointiin ymmärtääkseen puhuttua kieltä ja muuttaakseen sen digitaaliseen muotoon.
Puheentunnistusjärjestelmä: Laaja teknologinen infrastruktuuri tai alusta, joka sisältää tarvittavat laitteet, ohjelmistot ja algoritmit puheen tunnistamiseen ja prosessointiin. Kun puhutaan litterointiin soveltuvista järjestelmistä, käyttäjille on tarjolla sekä omalle koneelle ladattavia puheentunnistusjärjestelmiä että API-rajapintojen avulla järjestelmiä käyttäviä sovelluksia ja palveluita.
Tekoälypohjainen tai tekoälyä hyödyntävä puheentunnistusjärjestelmä: Puheentunnistusjärjestelmä, johon on integroitu tekoäly. Puheentunnistuksen prosessissa tekoäly erottelee ja analysoi ääntä ja tunnistaa ja tulkitsee luonnollisen kielen ominaisuuksia sekä puheen kontekstia. Tämä prosessi on lähellä ihmisen tekemää ajatustyötä ja parantaa huomattavasti puheentunnistuksen lopputulosta.
Puheentunnistussovellus: Konkreettinen tuote tai palvelu, joka hyödyntää puheentunnistusteknologiaa tiettyyn käyttötarkoitukseen. Sovellukset voivat olla mobiili- tai desktop-ohjelmistoja. Näitä ovat esimerkiksi älypuhelimessa toimiva sovellus, joka muuntaa puheen tekstiviestiksi, tai virtuaaliassistentti, joka suorittaa käyttäjän puhekomentoja. Sovellukset rakennetaan usein hyödyntämällä olemassa olevia puheentunnistusjärjestelmiä tai -alustoja.

Lue myös

nopeat sormet litteroivat

Litterointihaaste: Automaattinen litterointi vs. Manuaalinen litterointi

  • by Miia

Automaattinen litterointi eli puheentunnistusteknologioita hyödyntävä litterointi on ottanut hurjia harppauksia eteenpäin. Suomen kieltä on kuitenkin edelleen vaikea tulkita koneellisesti. Kerromme tässä tekstissä tiivistetysti, milloin automaattisesta litteraatiosta on hyötyä ja milloin litterointi kannattaa edelleen antaa ihmisten käsiin.




Lue blogi


Lue blogi